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1 

Mekanismi sahkoisen tekstihaun tukemiseksi 

Keksinnon tausta 

Keksinto liittyy sahkoisen tekstihaun tukemiseen, erityisesti kohdis- 
tettaessa hakuja Internet-tyyppisessa verkossa ja CD-ROM -levyilla julkaista- 
5 viin dokumentteihin. 

Sahkoisessa muodossa julkaistavien dokumenttien maara ja infor- 
maatiosisalto kasvavat valtavalla nopeudella. Yha eneneva osa artikkeleista 
julkaistaan Internetissa tai CD-ROM -levyilla (tai DVD-levyilla). 

Kayttaja etsii tietoa tallaisista dokumenteista antamalla yhden tai 
10 muutaman sanan, joita han pitaa erityisen relevantteina. Naita sanoja kutsu- 
taan hakusanoiksi. Esimerkiksi maantieliikenneonnettomuuksista kiinnostunut 
kayttaja voi etsia hakusanoja "tie", "liikenne", "onnettomuus" jne. 

Ohjelmaa, tietokonetta ja palvelua, joka toteuttaa kayttajan maarit- 
telemSn JeJssiitaja^ hakukqneeksi ja 



15 hakupalveluksi. Jos hakuohjelma ensin vastaanottaisi kayttajan maarittelemat 
hakusanat ja vasta sitten lahtisi seulomaan koko sen ulottuvilla olevaa infor- 
maatiota, haku muodostuisi yleensa toivottoman hitaaksi. Tayteen kirjoitetun 
CD-ROM -levyn lapikayminen kestaisi useita minuutteja. Koko Internetin lapi- 
kayminen veisi useita paivia tai viikkoja. Tama myos kuormittaisi Internetia 

20 kohtuuttomasti. Koska ensimmainen haku ei yleensa tuota riittavan hyvaa 
otosta, haku joudutaan toistamaan useita kertoja. 

Taman ongelman ratkaisemiseksi on kehitetty indeksointiohjelmia ja 
-palveluja, jotka kayvat etukateen lapi kaytettavissaan olevaa informaatiota ja 
muodostavat siita indeksoidun tietokannan, johon voidaan kohdistaa hakuja 

25 yhdessa tai muutamassa sekunnissa. Esimerkkeja talla tekniikalla Internetissa 
toimivista hakupalveluista ovat Lycos, Yahoo ja AltaVista. Esimerkkina omas- 
sa tietokoneessa tai lahiverkossa toimivasta hakuohjelmasta olkoon dtSearch, 
jota valmistaa samanniminen yhtio. Kaikista naista on saatavana tietoa www- 
osoitteella (World Wide Web) www.nimi.com, missa "nimi" on ylla mainittu pal- 

30 velun tai yhtion nimi. 

Kuvio 1 esittaa Internet-tyyppisessa verkossa julkaistavan doku- 
mentin hakua. Internet-tyyppisella verkolla tarkoitetaan varsinaisen Internet- 
verkon lisaksi sen suljettuja osa-alueita, joista kaytetaan nimityksia intranet, 
extranet jne. TE (Terminal Equipment) esittaa kayttajan paatelaitteistoa, jolla 

35 tarkoitetaan kayttajan tietokonetta ja/tai nayttopaatetta seka siina suoritettavaa 
selainohjelmaa Internet-sivujen esittamiseksi. Viite 1-A esittaa hakupalvelun 



tarjoajan hakupalvelinta, DNS (Domain Name Server) yhta nimipalvelun paive- 
linta eli nimipalvelinta ja viite 1-B Internet-sivuja yllapitavaa WWW-palvelinta 
eli dokumentin julkaisijan palvelinta. 

Vaiheessa 1-2 kayttajan antama hakupalvelimen HTTP-muotoinen 
5 (HyperText Transfer Protocol) Internet-osoite valitetaan nimipalvelimefle DNS, 
joka puolestaan valittaa kayttajalle vaiheessa 1-4 kyseisen hakupalvelimen 
osoitteen IP-muodossa (Internet Protocol). IP-osoitteen avulla paatelaitteisto 
TE muodostaa vaiheessa 1-6 yhteyden hakupalvelimeen 1-A. 

Vaiheessa 1-8 hakupalvelin lahettaa WWW-sivunsa kayttajalle si- 
10 vunkuvauskielen HTML-muodossa (HyperText Markup Language), ja WWW- 
sivut esitetaan kayttajan paatelaitteiston TE nayttopaatteella. Yhteys palveli- 
men ja paatelaitteiston valilla on auki vain sivun siirtoon kuluvan ajan. 

Vaiheessa 1-10 kayttaja antaa hakukoneen hakulomakkeeseen yh- 
den tai useampia hakusanoja, ja ne lahetetaan vaiheessa 1-12 hakupalveli- 
15 melle. Hakuohjelma etsii vaiheessa 1-14 kyseisia hakusanoja hakupalvelimen 
tietbkaririastarilista loytyneista, hakusanat sisaltavista dokumenteista palau- 
tetaan kayttajalle vaiheessa 1-16. 

Vaiheessa 1-18 kayttaja voi selata loytyneita dokumentteja Internet- 
selaimessaan. Kun han haluaa tutustua johonkin haussa loytyneeseen doku- 
20 menttiin, han antaa kyseisen dokumentin WWW-osoitteen selaimelleen 
(esimerkiksi valitsemalla sen hakupalvelun tuottamasta listasta), joka ottaa 
yhteyden vaiheessa 1-20 nimipalvelimeen. Tama palauttaa vaiheessa 1-22 
kyseisen dokumentin IP-osoitteen selaimelle, joka taman IP-osoitteen avulla 
pyytaa kyseista dokumenttia vaiheessa 1-24. Vaiheessa 1-26 kyseinen WWW- 
25 sivu lahetaan kayttajalle. Mikali kayttaja haluaa selata muita hakukoneen loy- 
tamia dokumentteja, han voi vaiheessa 1-28 palata takaisin hakukoneen lista- 
ukseen loytyneista dokumenteista. 

Kayttaja voi toistaa vaiheita 1-18 ... 1-28, kunnes han on kaynyt lapi 
kaikki hakukoneen loytamat dokumentit ja/tai kunnes han haluaa lopettaa do- 
30 kumenttien selaamisen. 

Jotta edella kuvattu haku olisi tehokasta, eri hakupalveluilla on eri- 
laisia tekniikoita hakusanojen yhdistelemiseksi. Yleisesti kaytetaan loogisia 
operaattoreita AND, OR ja NOTseka sulkumerkkeja. Esimerkiksi haku sanoilla 
"tie AND onnettomuus" etsii dokumentteja, joissa esiintyvat sanat "tie" ja 
35 "onnettomuus". 




3 

Haku ei kuitenkaan yleensa tuota reievanttia tietoa, mikali annetaan 
vain hakusanojen yhdistelma. Sen vuoksi useimmat hakupalvelut tunnistavat 
myos laheisyysoperaattorin. Altavistan tapauksessa tama on NEAR. Haku sa- 
noilla "tie NEAR onnettomuus" etsii dokumentteja, joissa sanat "tie" ja 
5 "onnettomuus" esiintyvat korkeintaan 10 sanan etaisyydella toisistaan. Myos 
dtSearch -ohjelmalla voidaan maaritella maksimaalinen sanojen etaisyys: la- 
heisyysoperaattori w/n, missa n=1, 2, ... , edellyttaa etta sanat esiintyvat kor- 
keintaan n:n sanan etaisyydella toisistaan. 

Taman keksinnon perustana oleva ongelma on, etta etukateen ta- 
10 pahtuva indeksointi toimii huonosti kielissa, joissa sanoilla on useita taivutus- 
muotoja. Suomen kielen nomineilla ja verbien nominaalimuodoilla on 15 sija- 
muotoa, unkarin kielessa perati 21. Kun otetaan huomioon yksikko- ja monik- 
komuodot, possessiivisuffiksit ja muut paatteet, mahdollisia taivutusmuotoja on 
useita satoja. 

15 Taivutettujen muotojen loytamiseksi kaikki ylla mainitut hakupalvelut 

tukevat villi- eli tahtimerkin (*) kayttoa: tahtimerkkia voidaan kayttaa osoitta- 
maan, etta sanan loppu on katkaistu ja hakupalvelun tulee loytaa kaikki sanat, 
jotka alkavat annetulla tavalla. Esimerkiksi annettaessa hakusanaksi 
"onnettomuu" tulee hakupalvelun loytaa sanat "onnettomuudet", 

20 "onnettomuuksista", "onnettomuustutkintalautakunta" jne. 

Tahtimerkin kaytossa on kuitenkin ongelmia ja rajoituksia. Esimer- 
kiksi AltaVista -hakupalvelu vaatii, etta hakusanasta annetaan ainakin kolme 
kirjainta ennen tahtimerkkia. Kuitenkin esimerkiksi sanan "tie" taipumaton osa 
on vain yhden kirjaimen pituinen: "teiden", "teilla" jne. Toinen ongelma on, etta 

25 hakusanalla "tie*" palautetaan kaikki tie-alkuiset sanat, kuten "tiede", 
"tietokone", "tietoliikenne", "tietysti", "tienoo" ja "tietoisuus", kaikissa taivutus- 
muodoissaan. Lyhytvartaloisten sanojen etsiminen tunnetulla tekniikalla tuot- 
taa siis erittain eparelevanttia tai ei lainkaan tietoa. 

Keksinnon lyhyt selostus 

30 Keksinnon eraana tarkoituksena on kehittaa sellainen sahkoisen 

dokumentin rakenne, jolla dokumentin indeksoinnin jalkeen ei esiinny ylla mai- 
nittuja ongelmia. Toisella tavalla nahtyna keksinnon tavoitteena on kehittaa 
menetelma ja laitteisto tallaisten dokumenttien tuottamiseksi. Keksinnon ta- 
voitteet saavutetaan menetelmalla ja jarjestelmalla, joille on tunnusomaista se, 

35 mita sanotaan itsenaisissa patenttivaatimuksissa. Keksinnon edulliset suori- 
tusmuodot ovat epaitsenaisten patenttivaatimusten kohteena. 



Keksinto perustuu siihen, etta sahkoisesti julkaistavaa dokumenttia 
taydennetaan lisaamalla siihen dokumentin tekstiosuuden sisaltamat sanat pe- 
rusmuodoissaan ja alkuperaisessa jarjestyksessa. Sanojen lisaaminen perus- 
muodoissaan saa aikaan sen, etta hakupalvelu loytaa seuraavan indeksoinnin 
jalkeen keksinnon mukaisesti taydennetyn dokumentin, vaikka alkuperaisessa 
dokumentissa sana ei esiintyisi lainkaan perusmuotoisena. 

Jaljempana kaytetaan nimitysta "taydennysosa" siita osasta, joka 
sisaltaa keksinnon mukaisesti lisatyt sanat. Vastaavasti "perusosa" on se osa, 
joka sisaltaa alkuperaisen dokumentin. 

Itse asiassa on tunnettua lisata dokumentteihin kasin joitakin pe- 
rusmuotoisia avainsanoja. Tieteellisten dokumenttien otsikon alia tai vaihto- 
ehtoisesti dokumentin lopussa kaytetaan joskus kenttaa "avainsanat", jossa 
esiintyy muutama avainsana. Tama ei kuitenkaan ratkaise ongelmaa toivotulla 
tavalla, koska perusmuotoisten avainsanojen maara on hyvin rajallinen, eika 
laheisyysoperaattori toimi oikein. Pitkassa artikkelissa voidaan puhua useasta 
taysin erillisesta asiasta, mutta avainsanakentassa vastaavat hakusanat ovat 

kuitenkin lahella toisiaan. 

Keksinnon mukainen tekniikka, jossa sanat lisataan alkuperaisessa 
jarjestyksessa saa aikaan sen, etta hakupalvelu osaa kayttaa oikein lahei- 
syysoperaattoreita. Esimerkiksi haku sanoilla "tie NEAR onnettomuus" loytaisi 
dokumentin, joissa esiintyy tekstifragmentti "teillamme tapahtuneet onnetto- 
muudet", vaikka dokumentti ei sisaltaisi lainkaan sanoja "tie" tai "onnettomuus" 
perusmuodoissaan. 

Koska dokumentin tekstiosan sanat lisataan alkuperaisessa jarjes- 
tyksessa, nayttaisi silta etta dokumentin pituus likimain kaksinkertaistuu. Tama 
pitaa paikkansa vain tekstia sisaltavien dokumenttien suhteen. Useimpiin do- 
kumentteihin liittyy kuitenkin kuvia, joiden vaatima muistitila ylittaa moninker- 
taisesti tekstiosuuden vaatiman muistitilan, joten tekstiosuuden kaksinkertais- 
taminen ei merkittavasti kasvata koko dokumentin vaatimaa muistitilaa. 

Muistitilan vahaisen kasvamisen vastapainoksi keksinnon mukainen 
tekniikka tuo viela yhden yllattavan edun: nain taydennettyjen dokumenttien 
relevanssi kasvaa naennaisesti ainakin kaksinkertaiseksi, koska dokumenteis- 
sa on kayttajan valitsemia hakusanoja kaksinkertainen maara. Keksinnon mu- 
kaisesti taydennetyn dokumentin julkaisija saa siis sanomansa paremmin pe- 
rille. Dokumentin relevanssi kasvaa kaksinkertaiseksi sellaisten hakusanojen 
suhteen, joilla on niin pitka vartalo, etta niita voidaan iuotetiavasti hakea tahti- 



merkilla, esimerkiksi "onnettomuu*". Lyhytvartaloisten sanojen kohdalla, joita 
tunnetulla tekniikalla ei voida hakea lainkaan, dokumentin relevanssi kasvaa 
moninkertaiseksi, mika johtuu siita, etta tunnetulla tekniikalla tallaiset doku- 
mentit eivat hakupalvelulle ole lainkaan relevantteja. (Ne voivat olla osittain 
relevantteja siina tapauksessa, etta kayttaja antaa useita hakusanoja, joista 
muut sanat ovat sellaisia, etta hakupalvelu Idytaa ne.) Tassa kappaleessa re- 
levanssilla ei siis tarkoiteta sita, kuinka relevantti jokin dokumentti on kaytta- 
jalle, mikali han sen loytaisi, vaan silla tarkoitetaan hakupalvelun tuottamaa 
mittalukua, jonka laskenta perustuu siihen, kuinka monta annetuista hakusa- 
noista esiintyy dokumentissa, ja mahdollisesti kuinka usein ne esiintyvat. 

Dokumentin kayttajat (henkilot, jotka etsivat kyseista dokumenttia) 
eivat voi etukateen tietaa, mitka dokumentit on taydennetty keksinnon mukai- 
sella tavalla, ja mitka eivat ole. Myos tasta syysta sanojen lisaaminen alkupe- 
raisessa jarjestyksessa on erittain tarkea ominaisuus, koska kayttajien ei tar- 
— vitse-muuttaa-hakutottumuksiaan-mitenkaanr-vaan he voivat kayttaa lahei- 
syysoperaattoria totutulla tavalla. 

Kayttajan hakutoiminto ei kuitenkaan lopu siihen, etta hakupalvelu 
loytaa hanelle jonkin hakusanat sisaltavan dokumentin. Hanen on yleensa 
viela loydettava relevantit alueet dokumentin sisalta. 

Oletetaan aluksi, etta dokumentit taydennetaan yksinkertaisesti li- 
saamalla perusmuotoiset sanat dokumentin loppuun. Kayttaja voi etsia tasta 
taydennysosuudesta perusmuotoisia hakusanoja selain- tai tekstinkasitte- 
lyohjelman hakutoiminnoilla. Mikali hakusana on lyhytvartaloinen, kayttaja ei 
voi etsia sita dokumentin perusosasta, mutta han voi katsoa taydennysosasta 
jonkin hakusanan lahella olevan pidemman ja harvinaisemman sanan, ja etsia 
sen dokumentin perusosasta. Tassa suhteessa keksinnon mukainen tekniikka 
voi aiheuttaa pienen muutoksen kayttajan toimintatapoihin, mutta muutos na- 
kyy vasta sitten kun hakuohjelma on jo loytanyt dokumentin ja kayttaja selaa 
sita. Mikali dokumentti on lyhyt, tai kayttaja muusta syysta paattaa lukea sen 
kokonaan, kayttaja ei joudu muuttamaan toimintatapojaan. 

Dokumentin perusmuotoisten sanojen lisaaminen dokumentin lop- 
puun vaaristaa dokumentin ulkoasua. Teksti nayttaa sellaisen ihmisen kirjoit- 
tamalta, joka ei ymmarra kielesta mitaan, vaan kaantaa koneellisesti sanakir- 
jan avulla. Dokumentin kirjoittajan mielesta tallaista voitaisiin pitaa jopa res- 
pektioikeuden loukkauksena. (Respektioikeus tarkoittaa, etta kaupallisesta le- 
vitysoikeudesta riippumatta teosta ei saa esittaa loukkaavalla tavalla.) Sen 



vuoksi taydennysosa on edullista liittaa dokumenttiin tavalla, joka estaa sen 
nakymisen dokumentin normaalikaytossa. Esimerkiksi HTML-koodattuun 
(HyperText Markup Language) dokumenttiin voidaan liittaa ainakin yksi kom- 
mentti- tai metakoodikentta, joka sisaltaa keksinnon mukaisen taydennysosan. 
5 Vaihtoehtoinen tapa on yhden tai useamman kuvan lataaminen taydennys- 
osan paalle. Kun kayttaja haluaa etsia hakusanaa tasta taydennysosasta, han 
avaa dokumentin selainohjelmallaan ja nayttaa dokumentin sisaltamat HTML- 
kieiiset kaskyt. Esimerkiksi Internet Explorer -ohjelmalla tama tapahtuu kas- 
kylla View/Source. Vastaavasti kehittyneilla tekstinkasittelyohjelmilla on mah- 

10 dollista asettaa taydennysosalle attribuutti "piiloteksti", jolloin se saadaan na- 
kyviin nayttamalla normaalisti nakymattomat ohjaus- ja erikoismerkit. 

Tunnetut hakutekniikat eivat loyda hakusanoja, jotka esiintyvat yh- 
dyssanan osina, mutta eivat sen alussa. Laheisyysoperaattori ei myoskaan 
toimi, mikali hakusanat esiintyvat yhdyssanan eri osina. Esimerkiksi sanasta 

15 "maantieliikenteen" ei loydeta sanoja "tie" eika "liikenne" eika varsinkaan naita 

s'anaja™lahella-toisiaan— Sen-vuoksheraan-toisen~edullisen suoritusmuodon 

mukaan keksinnon mukainen taydennysosa sisaltaa kunkin yhdyssanan koh- 
dalla kyseisen yhdyssanan perusmuodon lisaksi yhdyssanan osien perus- 
muodot erillisina sanoina. Esimerkiksi taivutetussa muodossa olevan yhdyssa- 

20 nan "maantieliikenneonnettomuuksien" kohdalla taydennysosa sisaltaisi sanat 
"maantieliikenneonnettomuus", "maa", "tie", "liikenne" ja "onnettomuus". Nain 
taydennetty dokumentti loytyy, mikali kayttaja hakee sanoja "tie" ja "liikenne", 
jopa silloin kun kayttaja vaatii, etta nama sanat esiintyvat lahekkain. 

Viela eraan edullisen suoritusmuodon mukaan keksinnon mukainen 

25 taydennysosa sisaltaa perusmuotoisen yhdyssanan ja sen osien lisaksi kaikki 
yhdyssanan osien yhdistelmat siten, etta yhdyssanan muut kuin viimeinen osa 
ovat siina muodossa kuin ne esiintyvat dokumentissa ja yhdyssanan viimeinen 
osa on perusmuodossaan. Yhdyssanan osien yhdistelmat ovat lisaksi alkupe- 
raisessa jarjestyksessaan, siis edellisen esimerkin tapauksessa sanat 

30 "maantie", "tieliikenne" ja "liikenneonnettomuus" seka "maantieliikenne", ja 
"tieliikenneonnettomuus". 

Viela eraan edullisen suoritusmuodon mukaan keksinnon mukainen 
taydennysosa lisataan keskitetyssa palvelimessa, jotta jokaisen dokumentin 
julkaisijan ei tarvitsisi hankkia ohjelmistoa, joka osaa muuntaa sanoja perus- 

35 muotoonsa. Alkuperainen dokumentti voidaan lahettaa taydennysta varten le- 
vykkeella, sahkopostin liitetiedostona, Internetin FTP-protokoiiaiia tms. 



Kuvioiden lyhyt selostus 

Keksintoa selostetaan nyt lahemmin edullisten suoritusmuotojen 
yhteydessa, viitaten oheisiin piirroksiin, joista: 

Kuvio 1 on yhdistetty vuo- ja signalointikaavio, joka esittaa Internet- 
tyyppisessa verkossa julkaistavan dokumentin hakua; 

Kuvio 2 esittaa signalointikaaviota keksinnon mukaisen taydennys- 
osan lisaamiseksi; 

Kuvio 3A esittaa esikasitellyn dokumentin ja taydennetyn dokumen- 
tin rakenteita. 

Kuvio 3B esittaa taydennetyn dokumentin rakennetta, missa tay- 
dennysosan paalle on ladattu kuva. 

Keksinnon yksityiskohtainen selostus 

Er as"mahdollinen-tekniikka -keksinndn-muka isen taydennysosan li- 
saamiseksi dokumenttiin esitetaan kuviossa 2, jossa viite 2-A esittaa doku- 
mentin julkaisijan palvelinta, DNS nimipalvelinta, viite 2-B edella mainittua 
keskitettya palvelinta eli taydennyspalvelun tuottajan palvelinta ja viite 2-C ha- 
kupalvelun tarjoajan palvelinta 

Dokumentin julkaisijalla tarkoitetaan sita, joka haluaa julkaista kek- 
sinnon mukaisesti taydennetyn dokumentin. Taydennyspalvelun tuottaja puo- 
lestaan tarjoaa keksinnon mukaisen palvelun taydennysosan lisaamiseksi do- 
kumenttiin. 

Vaiheessa 2-10 dokumentin julkaisija lahettaa taydennyspalvelun 
tuottajan palvelimen WWW-osoitteen nimipalvelimelle DNS, joka palauttaa 
vaiheessa 2-12 vastaavan IP-osoitteen dokumentin julkaisijalle. Taman avulla 
dokumentin julkaisija paasee vaiheessa 2-14 taydennyspalvelun tuottajan In- 
ternet-sivuille. Vaiheessa 2-16 dokumentin julkaisijan selainohjelma noutaa 
taydennyspalvelun tuottajan WWW-sivun/-sivut paatelaitteelleen. 

Kyseisella WWW-sivulla voidaan esittaa ainakin sahkopostiosoite, 
jonne dokumentin julkaisija voi lahettaa dokumentin keksinnon mukaista tay- 
dennysta varten. Sivuilla taydennyspalvelun tuottaja voi kertoa esimerkiksi 
tarjoamastaan palvelusta ja antaa ohjeita sen kayttamiseksi. 

Saatuaan sahkopostiosoitteen tietoonsa dokumentin julkaisija voi 
vaiheessa 2-18 lahettaa dokumenttinsa muokattavaksi taydennyspalvelun 
tuottajalle liittamalla sen esimerkiksi sahkopostin liitetiedostoksi (attachment). 



8 

Toinen mahdollinen dokumentin lahetystapa on FTP-siirto (File Transfer Pro- 
tocol). Dokumentin siirtotapa ei kuitenkaan ole keksinnon kannalta oleellinen. 

Vaiheessa 2-20 dokumentin julkaisijan HTML-muotoista dokument- 
tia muokataan taydennyspalvelun tuottajan palvelimella: siihen lisataan kek- 
5 sinnon mukainen taydennysosa. Taman jalkeen kyseinen taydennetty doku- 
mentti palautetaan dokumentin julkaisijalle vaiheessa 2-22 joko sahkopostilla 
tai FTP:n avulla. Sen jalkeen kun hakupalvelu on indeksoinut vaiheessa 2-24 
kyseisen dokumentin, dokumentin kayttaja voi etsia kyseista dokumenttia 
myos perusmuotoisilla sanoilla ja, mikali yhdyssanat jaetaan osiin, myos niiden 
10 osien perusmuodoilla. Internet-tyyppisessa verkossa julkaistavan dokumentin 
hakua kuvataan kuvion 1 vaiheesta 1-12 alkaen. 

Hakupalvelin on konfiguroitavissa siten, etta taydennysosan perus- 
muotoisille sanoille voidaan antaa myos enemman painoarvoa eli relevanssi- 
pisteita kuin normaalisti. Tama tarkoittaa sita, etta dokumentit, joiden sisalta- 
15 milla sanoilla on enemman relevanssipisteita sijoitetaan hakutulokset esitta- 

vassa NstassanahemTnaRsriistan karkipaata kuin-dokumentit, joiden sisalta- 

milla sanoilla on vahemman relevanssipisteita. Jos taydennysosan perus- 
muotoisille sanoille ei anneta ollenkaan relevanssipisteita tai jos sanat jatetaan 
indeksoimatta, dokumenttia ei loydeta taydennysosan avulla. 
2 0 Kuvio 3A esittaa esikasitellyn dokumentin 3-2 ja taydennetyn do- 

kumentin 3-20 rakenteita. Alkuperainen dokumentti voi olla esimerkiksi tekstin- 
kasittelyohjelmalla kirjoitettu tekstisivu muotoiluineen. Esikasitelty dokumentti 
on alkuperainen dokumentti muokattuna esimerkiksi HTML-kieliseksi. Doku- 
menteissa voi olla lisaksi kuvia, taulukoita, kehyksia ja/tai muita Internet- 
25 sivuilla tallennettavissa olevia objekteja. Viite 3-10 kuvaa HTML-kielen aloi- 
tusmerkkia <HTML> ja viite 3-12 kuvaa HTML-kielen lopetusmerkkia 
</HTML>. Kyseisten merkkien valissa on dokumentin sisalto 3-4. 

Keksinnon mukaisesti taydennetty dokumentti 3-20 sisaltaa myos 
aloitusmerkin 3-10 ja lopetusmerkin 3-12 seka dokumentin sisallon 3-4. Taman 
30 lisaksi taydennettyyn dokumenttiin 3-20 on lisatty taydennysosa 3-24, jossa 
kaikki dokumentissa esiintyvat sanat ovat perusmuodoissaan alkuperaisessa 
jarjestyksessa. Taydennysosan koodaus voi tapahtua esimerkiksi koodaa- 
malla se metakoodiksi (Metakeyword) tai HTML-kommentiksi. HTML-tiedosto 
voi sisaltaa useita HTML-kommentteja. HTML-tiedoston erotinmerkkeina toi- 
35 mivat "<! ..." ja Kommentin sijainnilla tiedostossa ei ole merkitysta. 

Kommentti voi olla dokumentin (3-20) alussa, lopussa tai sen keskelia. Naiden 



10 



tekniikoiden sijasta tai niiden lisaksi taydennysosan 3-24 paalle voidaan la- 
data yksi tai useampi kuva. Tata taydennetyn dokumentin 3-40 rakennetta 
esitetaan kuviossa 3B. Kun taydennysosa 3-24 on kuvan 3-44 alia, tayden- 
nysosa ei tule nakyviin dokumentin normaalikaytossa. Talloin nakyvi'lla on ai- 
noastaan esikasitelty dokumentti 3-42. 

Perusmuotoisten sanojen lisaksi dokumentin taydennysosaan voi- 
daan lisata myos sanojen eri variaatioita, synonyymeja ja rinnakkaismerkityk- 
sia. Talloin dokumentin relevanssi kasvaa edelleen, koska dokumenttia voi- 
daan etsia" myos hakusanoilla, joita ei esiinny alkuperaisessa dokumentissa. 

Alan ammattilaiselle on ilmeista, etta tekniikan kehittyessa keksin- 
non perusajatus voidaan toteuttaa monin eri tavoin. Keksinto ja sen suoritus- 
muodot eivat siten rajoitu ylla kuvattuihin esimerkkeihin vaan ne voivat vaih- 
della patenttivaatimusten puitteissa. 
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Patenttivaatimukset 

1 . Menetelma ainakin tekstiosuuden sisaltavan dokumentin (3-20, 
3-40) julkaisemiseksi yhdelle tai useammalle kayttajalle, jossa menetelmassa: 

- dokumentin (3-20, 3-40) tosiaikaisen haun tehostamiseksi doku- 
menttiin (3-20, 3-40) kohdistetaan ainakin yksi indeksointi (2-24) ja 

- indeksoinnin tulos tallennetaan, 

tunnettu siita, etta ennen mainittua ainakin yhta indeksointia 
(2-24) dokumenttia (3-20, 3-40) taydennetaan lisaamalla (2-20) siihen tayden- 
nysosa (3-24), joka sisaltaa olennaisesti ainakin kyseisen dokumentin (3-20, 
3-40) tekstiosuuden sisaltamat sanat perusmuodoissaan alkuperaisessa jar- 
jestyksessa. 

2. Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, 
etta taydennysosa (3-24) liitetaan dokumenttiin (3-20, 3-40) tavalla, joka estaa 
sen nakymisen dokumentin normaalikaytossa. 

g-pg^^^^tj^aks^n^-mukainen-menetelmaT- t-u-n-n-e -t t-u-siita, 

etta taydennysosa (3-24) sisaltaa kunkin yhdyssanan kohdalla kyseisen yh- 
dyssanan perusmuodon lisaksi yhdyssanan osien perusmuodot erillisina sa- 
noina. 

4. Patenttivaatimuksen 3 mukainen menetelma, tunnettu siita, 
etta taydennysosa (3-24) sisaltaa lisaksi kaikki yhdyssanan osien yhdistelmat, 
missa osat ovat alkuperaisessa jarjestyksessa. 

5. Patenttivaatimuksen 1 mukainen menetelma, tunnettu siita, 
etta useita dokumentteja julkaistaan usealla julkaisupalvelimella ja etta tay- 
dennysosa (3-24) lisataan taydennyspalvelimella (2-B), joka on yhteinen use- 
alle julkaisupalvelimelle. 

6. Patenttivaatimuksen 5 mukainen menetelma, tunnettu siita, 
etta taydennyspalvelin (2-B) vastaanottaa (2-18) ja lahettaa (2-22) taydennet- 
tavat dokumentit (3-20, 3-40) IP-protokollaa kayttavan tietoliikenneverkon 
kautta. 

7. Laitteisto (2-B) elektronisen tekstihaun tukemiseksi, joka laitteisto 
(2-B) on sovitettu vastaanottamaan ainakin tekstiosuuden sisaltaman doku- 
mentin (3-20, 3-40), tunnettu siita, etta dokumentin (3-20, 3-40) tosiaikai- 
sen haun tehostamiseksi laitteisto (2-B) on sovitettu lisaamaan taydennysosan 
(3-24), ioka sisaltaa olennaisesti ainakin kyseisen dokumentin (3-20, 3-40) 
tekstiosuuden sisaltamat sanat perusmuodoissaan alkuperaisessa jarjestyk- 
sessa. 
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8. Patenttivaatimuksen 7 mukainen laitteisto (2-B), tunnettu 
siita, etta laitteisto (2-B) on sovitettu vastaanottamaan (2-18) ja lahettamaan 
(2-22) dokumentti (3-20, 3-40) IP-protokollaa kayttavan tietoliikenneverkon 
kautta. 

9. Jarjestely dokumenttien julkaisemiseksi IP-protokollaa kayttavan 
tietoliikenneverkon kautta, joka jarjestely kasittaa ainakin yhden julkaisupalve- 
limen (1-B, 2-A) mainitun dokumentin julkaisemiseksi, ainakin yhden indek- 
sointipalvelimen (1-A, 2-C) mainitun dokumentin indeksoimiseksi ja ainakin 
yhden paatelaitteen (TE) kyselyn lahettamiseksi mainitulle ainakin yhdelle in- 
deksointipalvelimelle (1-A, 2-C), tunnettu siita, etta dokumentin tosiaikai- 
sen haun tehostamiseksi jarjestely lisaksi kasittaa patenttivaatimuksen 7 tai 8 
mukaisen laitteiston (2-B). 

10. Sahkoisessa muodossa julkaistava dokumentti (3-20, 3-40), jo- 
ka sisaltaa ainakin tekstiosuuden, tunnettu siita, etta dokumentin (3-20, 
3-40) tosiaikaisen haun tehostamiseksi dokumentti (3-20, 3-40) kasittaa tay- 
dennysosan (3-24), joka sisaltaa olennaisesti ainakin kyseisen dokumentin 
(3-20, 3-40) tekstiosuuden sisaltamat sanat perusmuodoissaan alkuperaises- 
sa jarjestyksessa. 



(57) Tiivistelma 

Sahkoisesti julkaistavaan dokumenttiin (3-2) lisataan tay- 
dennysosana (3-24) ainakin dokumentin (3-2) tekstiosuu- 
den sisaltamat sanat perusmuodoissaan, alkuperaisessa 
jarjestyksessa ja kunkin yhdyssanan kohdalla lisaksi yh- 
dyssanan osien perusmuodot erillisina sanoina. Tayden- 
nysosan lisaaminen (2-20) saa aikaan sen, etta hakupal- 
velu (1-A, 2-C) loytaa seuraavan indeksoinnin (2-24) jal- 
0 keen keksinnon mukaisesti taydennetyn dokumentin 

(3-20, 3-40), vaikka alkuperaisessa dokumentissa sana ei 
esiintyisi lainkaan perusmuotoisena. 



(Kuvio 3A) 
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